﻿#
# 以下代码仅供参考。
# 
'''
考生文件来下.存在2个Python源文件和1个文本文件，其中，2个Python源文件对应2个问题，
文本文件“data.txt”中包含一篇从互联网上下载的关于“德国工具4.0战略规划实施建议摘要”的文章。
请分别补充2个Python源文件，完成以下功能。
问题1:文件内容清洗。要求:在文件PY301-1.py中补充代码，对文件data.txt的内容进行清理，
去掉中文标点符号，只保留中文、英文、数字、英文标点符号等字符，将结果输出到文件c1ean.txt中。
示例如下:
德国工业4.0战略计划实施建议摘编机械工业信息研究院战略与规化研究所一德国实施工业…(略)
'''
import jieba
import re

fr = open('data.txt', encoding='utf-8')
fw = open('clean.txt', mode='w', encoding='utf-8')

line = txt = fr.read()

for i in '()！，。？、（）￥……【】\n ':
    # print(i)
    if i in txt:
        txt = txt.replace(i, '')

fw.write(txt)

fr.close()
fw.close()

# print(line)
string = re.sub("[(|)|\n|-|！|，|。|？|、|（|）|￥|……|【|】| ]", "", line)  # line是 utf-8编码，不需要转换。
print(txt == string)
print(txt)
print(string)